iT邦幫忙

2023 iThome 鐵人賽

DAY 23
0
AI & Data

生資的路且重且遠,我要被鴨垮了Q系列 第 23

Day23. GATK Best Practices

  • 分享至 

  • xImage
  •  

GATK(Genome Analysis Toolkit)是一個用於處理和分析DNA序列數據的開源軟件包,主要用於基因體學研究和生物信息學應用。GATK提供了多個不同的工作流程和工具,以幫助研究人員進行基因組數據的讀取、處理、變異檢測和分析。在這個介紹中,我將詳細介紹GATK的最佳流程(best pipeline)以及相關工具和步驟。

GATK

最佳GATK流程通常包括以下步驟:

  1. 數據預處理(Data Preprocessing):

    • 讀取對齊(Read Alignment):將原始DNA序列數據(fastq格式)對齊到參考基因組上,以確定每個讀取的確切位置。
    • 質量控制(Quality Control):檢查和修剪低質量的讀取,避免將不可靠的數據納入分析。
    • 修正偏差(Base Quality Score Recalibration,BQSR):校正碱基質量分數,以修正不同碱基的讀取偏差。
  2. 變異檢測(Variant Calling):

    • 單一樣本變異檢測(Single-sample Variant Calling):使用工具如HaplotypeCaller,對每個樣本進行變異檢測,包括單核苷酸變異(SNV)和插入/刪除變異(Indels)。
    • 联合檢測(Joint Variant Calling):將多個樣本的變異信息聯合起來,提高變異檢測的精確性。
  3. 變異過濾(Variant Filtering):

    • 使用工具如VariantFiltration進行變異過濾,根據不同的標準過濾掉低質量的變異。
    • 基於硬過濾(Hard Filtering)或基於機器學習的方法來選擇最佳的變異。
  4. 變異注釋(Variant Annotation):

    • 使用工具如VariantEffectPredictor(VEP)來對變異進行功能注釋,確定它們是否影響基因功能。
  5. 結果解釋和分析:

    • 對變異進行統計學分析,確定哪些變異可能與研究的生物學特徵相關聯。
    • 可視化結果,以便更好地理解和解釋分析結果。

需要注意的是,GATK流程中的具體步驟和工具可能因研究目標、數據類型和質量而異。此外,GATK在不斷更新和改進,所以建議參考官方文檔和社區最新的建議和所需要的版本。

最終的GATK流程的目標是確定樣本中的變異,並理解這些變異如何影響生物學過程,從而支持基因組學研究、臨床診斷和生物信息學應用。

GATK pipeline

那怎樣取得GATK workflow 中的軟體呢? 那就是來自GATK的官方github(gatk),裏面有一些docs告訴你怎樣使用他,以及所對應的版本

這邊就不贅述怎樣安裝跟使用,下一天,我們直接上code 然後一步一步拆解。
我們走的流程是DNA(germline)的分析唷唷!

Reference

About the GATK Best Practices


上一篇
Day22. Germline and Somatic
下一篇
Day24. FastQC--1
系列文
生資的路且重且遠,我要被鴨垮了Q30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言